在本文中,我们将解决方案介绍给Muse-Humor的多模式情感挑战(MUSE)2022的邮件,库穆尔人子挑战的目标是发现幽默并从德国足球馆的视听录音中计算出AUC新闻发布会。它是针对教练表现出的幽默的注释。对于此子挑战,我们首先使用变压器模块和BilstM模块构建一个判别模型,然后提出一种混合融合策略,以使用每种模式的预测结果来提高模型的性能。我们的实验证明了我们提出的模型和混合融合策略对多模式融合的有效性,并且我们在测试集中提出的模型的AUC为0.8972。
translated by 谷歌翻译
多文件摘要中的一个关键挑战是捕获区分单个文档摘要(SDS)和多文件摘要(MDS)的输入文档之间的关系。现有的MDS工作很少解决此问题。一种有效的方法是编码文档位置信息,以帮助模型捕获跨文档关系。但是,现有的MDS模型(例如基于变压器的模型)仅考虑令牌级的位置信息。此外,这些模型无法捕获句子的语言结构,这不可避免地会引起生成的摘要中的混乱。因此,在本文中,我们提出了可以与MDS的变压器体系结构融合的文档意识到的位置编码和语言引导的编码。对于文档感知的位置编码,我们引入了一项通用协议,以指导文档编码功能的选择。对于语言引导的编码,我们建议使用简单但有效的非线性编码学习者进行特征学习,将句法依赖关系嵌入依赖关系掩码中。广泛的实验表明,所提出的模型可以生成高质量的摘要。
translated by 谷歌翻译
表结构识别是文档图像分析域的关键部分。它的困难在于需要同时解析每个单元的物理坐标和逻辑指标。但是,现有的方法很难实现这两个目标,尤其是当表分裂线被模糊或倾斜时。在本文中,我们提出了一种基于端到端变压器的表面结构识别方法,称为信任。变压器由于其全局计算,完美的内存和并行计算而适合表结构识别。通过引入基于新型变压器基于查询的新型分裂模块和基于顶点的合并模块,表结构识别问题被脱钩到两个关节优化子任务中:多面向的表行/列分拆分和表格格里合并。基于查询的拆分模块通过变压器网络从长期依赖项中学习了强烈的上下文信息,准确预测了多个面向的表行/列分离器,并相应地获得了表的基本网格。基于顶点的合并模块能够在相邻的基本网格之间汇总局部上下文信息,从而能够合并准确属于同一跨越单元的基本束。我们对包括PubTabnet和Connthtable在内的几个流行基准进行实验,我们的方法实现了新的最新结果。特别是,信任在PubTabnet上以10 fps的速度运行,超过了先前的方法。
translated by 谷歌翻译
从医用试剂染色图像中分割牙齿斑块为诊断和确定随访治疗计划提供了宝贵的信息。但是,准确的牙菌斑分割是一项具有挑战性的任务,需要识别牙齿和牙齿斑块受到语义腔区域的影响(即,在牙齿和牙齿斑块之间的边界区域中存在困惑的边界)以及实例形状的复杂变化,这些变化均未完全解决。现有方法。因此,我们提出了一个语义分解网络(SDNET),该网络介绍了两个单任务分支,以分别解决牙齿和牙齿斑块的分割,并设计了其他约束,以学习每个分支的特定类别特征,从而促进语义分解并改善该类别的特征牙齿分割的性能。具体而言,SDNET以分裂方式学习了两个单独的分割分支和牙齿的牙齿,以解除它们之间的纠缠关系。指定类别的每个分支都倾向于产生准确的分割。为了帮助这两个分支更好地关注特定类别的特征,进一步提出了两个约束模块:1)通过最大化不同类别表示之间的距离来学习判别特征表示,以了解判别特征表示形式,以减少减少负面影响关于特征提取的语义腔区域; 2)结构约束模块(SCM)通过监督边界感知的几何约束提供完整的结构信息,以提供各种形状的牙菌斑。此外,我们构建了一个大规模的开源染色牙菌斑分割数据集(SDPSEG),该数据集为牙齿和牙齿提供高质量的注释。 SDPSEG数据集的实验结果显示SDNET达到了最新的性能。
translated by 谷歌翻译
由于它们在现实世界中的广泛采用,提高深神经网络(DNN)的运行时性能至关重要。现有的优化DNN的张量代数表达的方法仅考虑由固定的预定义运算符表示的表达式,在一般表达式之间缺少可能的优化机会。我们提出了Ollie,这是第一个基于衍生的张量程序优化器。 Ollie通过利用一般张量代数表达式之间的转换来优化张量程序,从而实现了一个更大的表达搜索空间,其中包括由先前工作作为特殊情况支持的搜索空间。 Ollie使用基于混合衍生的优化器,该优化器有效地结合了探索性和指导性推导,以快速发现高度优化的表达式。对七个DNN的评估表明,Ollie可以在A100 GPU上胜过2.73 $ \ times $(平均为1.46美元$ \ times $),在V100上最多可超过2.68 $ \ times $(1.51 $ \ times $) GPU分别。
translated by 谷歌翻译
细颗粒的对象检索旨在学习判别性表示以检索视觉上相似的对象。但是,现有的表现最佳作品通常在语义嵌入空间上施加成对的相似性,以在有限数据方面不断调整整个模型,从而使次优溶液易于收敛。在本文中,我们开发了细粒度的检索提示调整(FRPT),该调整引导了一个冷冻的预训练模型,从样本提示和功能适应的角度从样本提示的角度执行精细颗粒的检索任务。具体而言,FRPT只需要在提示中学习更少的参数和适应性,而不是对整个模型进行微调,从而解决了通过微调整个模型引起的次优溶液的收敛性。从技术上讲,随着样本提示,引入结构扰动提示(SPP)以缩放甚至夸大了一些像素,从而通过内容感知到的不均匀采样操作为类别预测做出了贡献。这样,SPP可以通过在原始预训练期间接近已解决的任务的扰动提示来帮助您的精细颗粒检索任务。此外,提出了特定于类别的意识头并将其视为特征适应,它可以使用实例归一化在预训练模型提取的特征中消除物种差异,因此仅使优化的功能仅包括子类别之间的差异。广泛的实验表明,我们的FRPT具有较少的可学习参数,可以在三个广泛使用的细粒数据集上实现最先进的性能。
translated by 谷歌翻译
现有的伪造检测方法通常将面部伪造视为二进制分类问题,并采用深层卷积神经网络来学习歧视性特征。理想的判别特征应仅与面部图像的真实/假标签有关。但是,我们观察到,香草分类网络学到的特征与不必要的属性(例如伪造方法和面部身份)相关。这种现象将限制伪造的检测性能,尤其是对于概括能力。在此激励的基础上,我们提出了一种新型方法,该方法利用对抗性学习来消除不同伪造方法和面部身份的负面影响,该方法有助于分类网络学习固有的常见歧视性特征,以进行伪造伪造。为了利用缺乏面部身份的地面真实标签的数据,我们根据来自现成的面部识别模型得出的相似性信息设计了一个特殊的身份歧视器。在对抗性学习的帮助下,我们的伪造检测模型学会了通过消除伪造方法和面部身份的影响来提取共同的歧视特征。广泛的实验证明了该方法在数据集内和交叉数据集评估设置下的有效性。
translated by 谷歌翻译
运输网是最近提出的选择框架,可以从很少的专家演示中学习良好的操纵政策。转运蛋白网络如此有效的一个关键原因是,该模型将旋转模棱两可纳入挑选模块,即,该模型立即将学习的挑选知识概括为不同方向上显示的对象。本文提出了一种新颖的运输网络网络,该版本与拾音器和位置方向一样。结果,我们的模型除了像以前一样概括选择知识之外,立即将知识放置在不同的位置方向上。最终,我们的新模型比基线转运蛋白网模型更有效地有效,并且取得成功率更好。
translated by 谷歌翻译
最近,Koopman操作员已成为一个有前途的数据驱动工具,可促进未知非线性系统的实时控制。它将非线性系统映射到嵌入空间中的等效线性系统中,准备实时线性控制方法。但是,设计合适的Koopman嵌入功能仍然是一项具有挑战性的任务。此外,大多数基于Koopman的算法仅考虑具有线性控制输入的非线性系统,从而在系统完全非线性具有控制输入时会导致糟糕的预测和控制性能。在这项工作中,我们提出了一个端到端的深度学习框架,以学习Koopman嵌入功能和Koopman操作员,以减轻此类困难。我们首先使用神经网络对嵌入功能和Koopman操作员进行参数化,并使用K-Steps损耗函数端到端训练它们。然后,增强辅助控制网络以编码非线性状态依赖性控制项,以模拟控制输入中的非线性。该编码术语被认为是新的控制变量,而是确保嵌入式系统中建模系统的线性性。我们下一个在线性嵌入空间上部署线性二次调节器(LQR),以得出最佳控制策略并从控制网。实验结果表明,我们的方法优于其他现有方法,通过数量级的顺序降低预测误差,并在几种非线性动态系统(如阻尼摆,Cartpole和七个DOF机器人手动机器)中实现出色的控制性能。
translated by 谷歌翻译
由于可靠的3D空间信息,LIDAR传感器广泛用于自动驾驶。然而,LIDAR的数据稀疏,LIDAR的频率低于相机的频率。为了在空间和时间上生成密集点云,我们提出了第一个将来的伪激光框架预测网络。鉴于连续稀疏深度图和RGB图像,我们首先根据动态运动信息粗略地预测未来的密集深度图。为了消除光流量估计的误差,提出了帧间聚合模块,以使具有自适应权重的翘曲深度图熔断。然后,我们使用静态上下文信息优化预测的密集深度图。通过将预测的密集深度图转换为相应的3D点云,可以获得未来的伪激光镜帧。实验结果表明,我们的方法优于流行基准基准的现有解决方案。
translated by 谷歌翻译